OCP峰会Keynote：Intel和AMD都在谈UALink和Ultra Ethernet

Original 唐僧 huangliang 企业存储技术

2024-12-09

-OCP全球设备采购影响：2028年预计740亿美金

-AI硬件之争：从GPU芯片到集群

-为x86生态的未来携手

-被NVLINK和IB催生的技术：UALink和Ultra Ethernet

-微软Maia 100 AI芯片与OCP浮点格式规范

-Google数据中心机器人更换硬盘（视频）

2024 OCP Global Summit（开放计算项目全球峰会）于日前在美国落下帷幕，关注《企业存储技术》公众号时间长一点的朋友应该知道，每年这个时候我都在准备分享会议资料了。

比如去年的《2023 OCP Global Summit会议资料分享》，当然国内类似的组织我也有关注——《ODCC开放数据中心2024资料分享 (规范标准、白皮书等36份)》。

目前能下载到的本届OCP会议资料（Slide pdf）还只有Keynote部分。

2024 OCP Global Summit Keynote

链接: https://pan.baidu.com/s/13kVRDl3QVHTl_946uczUmw?pwd=yqjr

提取码: yqjr

大家也可以在关注本微信公众号之后，从后台对话框发消息 keynote24 来获取以上分享链接。

具体演讲主题如下。想要去油管上看视频的朋友，可以访问官网来源https://www.opencompute.org/events/past-events/2024-ocp-global-summit。

Keynotes(Chronological order)

Title

Speakers

Welcome to OCP Global Summit

George Tchaparian (Ceo) - Open Compute Project Foundation (Ocp)

Video

Slides

Powering the AI Future: Meta Vision for Open Systems for AI - presented by Meta

Omar Baldonado (Director Of Engineering- Network Infra) - Facebook

Video

Slides

Fostering Collaboration: Designing Data Centers for Tomorrow's AI Workloads - presented by NVIDIA

Ian Buck (Vp Of Hyperscale And Hpc Computing) - Nvidia

Video

Slides

PANEL: Scaling Interconnect and Memory for AI Clusters

Nigel Alvares (Vp Global Marketing And Business Planning) - Marvell
Chris Petersen (Fellow Of Technology And Ecosystems) - Astera Labs
Taeksang Song (Corporate Vp) - Samsung

Video

An Open-first Vision of the AI-driven Data Center - presented by Intel

Justin Hotard (Executive Vice President And General Manager Of The Data Center And Ai Group) - Intel

Video

Slides

Accelerating AI: A Holistic- Open Approach - presented by AMD

Forrest Norrod (Executive Vice President And General Manager- Data Center Solutions Business Group) - Amd

Video

Slides

GEICO's Year-Long Journey to Realizing the Impact of an OCP-Optimized Infrastructure

Sahid Jaffa (Head Of Hardware And Storage Engineering) - Geico
John Hilt (Head Of Data Center & Operations) - Geico

Video

Slides

PANEL: Towards an Open- Sustainable AI-Driven Data Center

Thomas Garvens (VP Solutions) - Supermicro
Melissa Massa (VP Global Sales Leader for Cloud Sales Providers) - Lenovo
Eddie Ramirez (Vice President of Go-To-Market Infrastructure) - Arm

Video

From Bottlenecks to Breakthroughs: Innovations in Data Center Infrastructure & Security - presented by Microsoft

Saurabh Dighe (Corporate Vp- Azure Strategic Planning And Architecture) - Microsoft

Video

Slides

Sustainable Silicon to Intelligent Clouds: Building the Compute Infrastructure of the Future - presented by Google

Partha Ranganathan (Vp And Engineering Fellow) – Google

Video

Slides

Keynote演讲主要是一些偏宏观、提纲挈领的东西。今天我也从中选取了一些有代表性的内容，简单做些点评。

OCP全球设备采购影响：2028年预计740亿美金

按照发言顺序，首先是OCP CEO的分享：

OCP在全球的影响——这个$74 Billion（740亿美金）的市场数字，应该是IDC预测的2028年。整个美洲的相关设备采购量占到了全球的一半，我也很高兴看到中国（PRC+HK）以23%位居“第二大经济体”。

接下来就是各大企业的分享。除了Keynote之外，上图中的1st和2nd Panel部分指的是Executive Sessions环节——这些视频也在我前面列的官网链接中放出来了。

AI硬件之争：从GPU芯片到集群

上图来自大会东道主Meta（Facebook）的分享。今年开始将AMD的MI300X用于AI推理（系统代号Grand Teton Inference）。

当然NVIDIA最新的GB200也没有少。上面代号Catalina的OpenRack V3整机架方案，支持140kW供电。Liquid Cooled（液冷）后面的“FLC”一词我有点没太看懂，不知是不是把DLC冷板敲错了？

接下来就是NVIDIA的分享：

NVIDIA宣布要把GB200 NVL72的设计贡献给OCP。上图列出了一些要点，比如

- 5000条NVLINK线缆；

- 计算Tray的尺寸：1U液冷；4 GPUs；

……

为x86生态的未来携手

如上图，在Intel的分享中我看到了Ultra Ethernet（超级以太网）和Ultra Accelerator Link（UALink），这2个AI互连技术我稍后再展开点讨论。

Intel的演讲ppt到了一半，画风突然一变如下——我想前两天许多读者朋友也看到新闻了。

Intel和AMD牵头组建x86 Ecosystem Advisory Group（x86生态系统咨询小组）。成员如下：

这个小组喊出的口号是：

This Is Our Future

Let's Define It Together!

被NVLINK和IB催生的技术：UALink和Ultra Ethernet

接下来是AMD的演讲：

AMD拿HPC高性能计算来举例。左边是美国橡树岭实验室2022年的Frontier超级计算机，采用了第三代EPYC CPU + Instinct MI250X GPU。右边则是今年劳伦斯利弗莫尔国家实验室（Lawrence Livermore National Laboratory，LLNL）实验室的EI‘ Capitan，选用的Instinct MI300A则是Zen4 CPU+GPU Core的混合芯片，共享HBM3高速内存UMA的架构。

扩展阅读：在《Chiplet Summit 资料分享：展望10年后的GPU和HBM》中，我曾经讨论过一点MI300系列芯片的设计及后续展望。

在数据中心GPU集群，特别是现在需求增长的AI集群中，Scale-up（单机内部扩展）和Scale-out（多节点横向扩展）网络方面，NVIDIA有2项优势技术NVLINK和InfiniBand。这也是Intel和AMD等结盟搞Ultra Ethernet和UALink的原因。用于Scale-out的UEC基于当前的以太网发展而来；而UALink应该主要是AMD贡献了Infinity Fabric互连技术——即上图中写的xGMI。

借助UALink交换机网络，可以实现GPU/加速器节点在一个POD内一定规模的跨机箱互连。如上图，是不是有点NVLINK的架势？当然，目前我看到的Infinity Fabric应该还是与PCIe共享物理层，资料有限，不知后续UALink是否会出现多个PCIe 6.0 x16 lane绑定使用的情况？从Switch芯片方面，倒是可以基于PCIe Switch来开发的，这一点有点像CXL（但二者用途不同）。

参考信息：“在9月的2024 ODCC开放数据中心大会上，阿里云联合信通院、AMD等十余家业界伙伴发起AI网络互连开放生态ALS（ALink System）。ALS产业生态支持开放的国际主流UALink协议，旨在解决AI网络纵向扩展（Scale-Up）中的超高速、超大带宽等技术难题，为下一代智算网络打造开放的、统一的标准规范。”

AI和HPC集群更大规模Scale-out组网，当前除了IB之外，主要的通用技术就是基于以太网的RoCE。

上图截自我在《AMD EPYC 9005 (Zen 5&5c) 服务器CPU架构解读》分享过的发布会资料。AMD Pensando Pollara 400网卡宣称即将首个支持Ultra Ethernet。所谓“UEC Ready RDMA”就是为了解决当前RDMA（IB/RoCE）的不足。还是要留意这张ppt下方的小字——对比RoCEv2的6倍提升，应该是用到了可靠的多路径传输。

微软Maia 100 AI芯片与OCP浮点格式规范

在Microsoft的Keynote中，介绍了应用在Azure数据中心里的Maia 100——有点像Google自己流片TPU那种感觉。这里还提到了贡献给OCP的Microscaling Formats(MX)浮点精度格式规范，我们知道NVIDIA的Blackwell架构是较早开始支持FP4和FP6的。

https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf参与这个标准指定的还有AMD、Intel等。

上图是我从zartbot老师的文章《HotChip2024-Day2: AI加速器互联和云AI处理器》中看到的，Maia 100支持6bit、9bit和BF16精度计算。

AMD在10天前的发布会上预介绍了Instinct MI350（规划在2025年下半年），也将支持FP4和FP6数据格式。

Google数据中心机器人更换硬盘（视频）

按照Keynote发言顺序的最后一位来自Google，我想在这里放一段视频吧——好像每次他们秀出数据中心里的特写都挺有看点的。

对应视频源ppt上的文字描述，显示效果有点问题，我粗略整理如下。供参考：

OCP 24 Spotlights

Robotics

Enable DC operations to scale while ensuring health safety of technicians materials

movement rack

mover disk repair automation

后续我会继续分享2024 OCP峰会的更多资料，敬请期待！

扩展阅读：《企业存储技术》文章分类索引更新（微信公众号合集标签）

注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。进一步交流，可以加我的微信：490834312。如果您想在这个公众号上分享自己的技术干货，也欢迎联系我：）

尊重知识，转载时请保留全文，并包括本行及如下二维码。感谢您的阅读和支持！《企业存储技术》微信公众号：HL_Storage

长按二维码可直接识别关注

历史文章汇总：http://www.toutiao.com/c/user/5821930387/

http://www.zhihu.com/column/huangliang

点击下方“阅读原文”，查看更多历史文章↓↓↓

个人观点，仅供参考

继续滑动看下一个

企业存储技术

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

OCP峰会Keynote：Intel和AMD都在谈UALink和Ultra Ethernet

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

OCP峰会Keynote：Intel和AMD都在谈UALink和Ultra Ethernet

您可能也对以下帖子感兴趣